Análisis Causal de la Mortalidad de Renacuajos de Rana Carrizo

Métodos Analíticos

Autores/as

Blanca Estela García Manjarrez - 118886

Yuneri Pérez Arellano – 199813

Fecha de publicación

21 de mayo de 2025

Introducción

En este proyecto empleamos los datos experimentales de Vonesh & Bolker (2005) [^1], quienes en su investigación examinaron las consecuencias de la plasticidad de eclosión inducida por depredadores desde la etapa larval hasta la metamorfosis en la rana de caña de África Oriental, Hyperolius spinigularis [^2] realizando un experimento en el que manipulaban el tamaño y la densidad larvaria inicial (imitando los efectos de los depredadores de los huevos). Esperaban que las crías inducidas por depredadores (porque están menos desarrolladas y son más pequeñas) experimentaran mayores tasas de depredación per cápita y un período larvario más largo y, por lo tanto, exhibirían una menor supervivencia a la metamorfosis en presencia de depredadores acuáticos que las larvas más grandes, más desarrolladas y eclosionadas más tarde. Sin embargo, los resultados mostraron que las larvas inducidas por depredadores no solo sobrevivieron a la metamorfosis, sino que también tuvieron tasas de crecimiento más rápidas y alcanzaron tamaños más grandes en la metamorfosis. Esto los motivó a desarrollar un modelo parametrizado a partir de experimentos adicionales para explorar si una combinación de mecanismos, crecimiento compensatorio y depredación específica por densidad y tamaño, podría dar lugar a este patrón. Es por eso que con esta introducción, buscamos replicar y entender su trabajo, utilizando un enfoque bayesiano jerárquico para modelar la mortalidad larval y las respuestas compensatorias posteriores. En este sentido, el modelo jerárquico nos permitirá capturar la heterogeneidad entre los tanques de renacuajos y compartir información entre ellos, lo que resulta en estimaciones más robustas y precisas.

[^1] Vonesh, J. R., & Bolker, B. M. (2005). Statistical tools for analyzing larval amphibian survival data. Ecology, 86(1), 172-182.

[^2] Se refiere a la capacidad de los embriones de la rana para ajustar su desarrollo y eclosión en respuesta a cambios ambientales, como la presencia de depredadores o el secado de su hábitat

Datos

Los datos provienen de la librería de rethinking de R. Constan de 48 observaciones que representan los tanques de renacuajos clasificados en pequeños, medianos y grandes, dependiendo de la densidad de renacuajos en cada uno. Además, de información sobre la supervivencia (variable binaria) y de la tasa de supervivencia en cada tanque. A continuación, se detallan cada una de las variables:

Variable Descripción
density Densidad inicial de renacuajos
pred Factor indicador de presencia de depredadores
size Tamaño de los renacuajos
surv Número de renacuajos que sobrevivieron
propsurv Proporción de supervivencia (surv/density)

En este experimento observamos mucha variación en los datos, y no toda se debe al tratamiento experimental (como la presencia de depredadores). Una gran parte de esa variación proviene de factores no medidos, propios de cada entorno donde viven los renacuajos. Podemos imaginar cada fila del dataset como un “tanque”, es decir, un pequeño ambiente experimental que contiene varios renacuajos. Aunque algunos tanques tengan la misma densidad o condiciones aparentes, hay muchas cosas que no estamos midiendo (como temperatura, luz, microalgas, etc.), que también influyen en la tasa de supervivencia. Esto hace que los tanques funcionen como lo que llamamos un conglomerado o cluster. Dentro de cada tanque observamos múltiples renacuajos, por lo que los datos tienen una estructura agrupada. En otras palabras, tenemos medidas repetidas dentro de grupos que son diferentes entre sí.

Para nuestro análisis nos centraremos en surv como variable de respuesta (binomial) frente a density como total de ensayos.

Es importante mencionar, que si usamos el mismo valor base (intercepto) para todos los tanques pooling, estamos ignorando diferencias importantes entre ellos. Esto puede hacer que no detectemos correctamente el efecto de otras variables como la densidad o el predador. Si por el contrario, usamos un intercepto distinto para cada tanque no pooling, pero sin compartir información entre ellos, podríamos caer en lo que se llama una “amnesia estadística”: tratamos a cada tanque como si no tuviéramos nada que aprender de los demás. Pero eso no tiene sentido, porque aunque cada tanque es diferente, los datos de uno pueden ayudarnos a entender mejor a los demás.

Por ello empleamos también un modelo bayesiano jerárquico o multinivel o como lo mencionaremos en este proyecto: modelo partial pooling con interceptos variables, de este modo, cada tanque tiene su propio parámetro de línea base, y al mismo tiempo estimamos la dispersión entre tanques mediante un prior adaptativo, que aprende de los datos. Con esto, buscamos lograr un equilibrio entre asumir que todo es igual (subajuste) y asumir que todo es completamente distinto (sobreajuste).

Nuestros objetivos son:

  1. Reproducir y extender los ejemplos de Statistical Rethinking aplicados a los datos de Reed Frogs.
  2. Modelar la mortalidad larval y las respuestas compensatorias posteriores explorando distintos niveles de agrupamiento pooling, no pooling y partial pooling.
  3. Evaluar la calidad y complejidad de cada modelo mediante diagnósticos MCMC y criterios de comparación predictiva (WAIC/LOO).
  4. Explorar el trade-off underfitting/overfitting mediante simulaciones con distintos tamaños de muestra, ilustrando los beneficios del pooling parcial.
  5. Desplegar un análisis causal formal con un DAG que recoja nuestros supuestos de identificación.

Con este enfoque buscamos profundizar en los costes y beneficios de la eclosión temprana inducida por depredadores, y demostrar cómo la regularización adaptativa de los modelos jerárquicos permite inferir efectos individuales de forma más robusta en presencia de datos jerarquizados y dispersos.

DAG

A continuación, se presenta la Gráfica Dirigida Acíclica (DAG) que ilustra las relaciones causales entre las variables de interés. Este DAG se basa en la premisa de que la densidad de renacuajos, el tamaño y la presencia de depredadores influyen en la supervivencia, y que la jerarquía de los tanques también afecta a estas relaciones.

Con

  • \(\textrm{T}=\textrm{Tanque}\)

  • \(\textrm{D}=\textrm{Densidad inicial}\)

  • \(\textrm{G}=\textrm{Tamaño}\)

  • \(\textrm{P}=\textrm{Depredadores}\)

  • \(\textrm{S}=\textrm{Supervivencia}\)

Aunque podríamos imaginar otras dependencias entre las variables, hay que tener presente que estos datos provienen de un experimento controlado, es decir, como se expone en la introducción el experimento es manipulado y cerrado bajo las condiciones que Vonesh & Bolker establecieron. En un escenario natural, sería razonable investigar vínculos, como el efecto del tamaño de los renacuajos en la densidad poblacional, la influencia de los depredadores sobre esa densidad, o el papel de variables no registradas —por ejemplo, la disponibilidad de alimento u otros recursos— tanto en el tamaño como en la densidad, e incluso factores genéticos que modulen el desarrollo de los renacuajos. Sería muy valioso repetir estas estimaciones en cuerpos de agua naturales, en lugar de en tanques de laboratorio. Por ahora, este experimento nos permite centrarnos en la tasa de supervivencia bajo condiciones estrictamente controladas, estableciendo una base sólida para futuros estudios en la naturaleza.

Modelos

1. Modelo Total Pooling

En este primer modelo totalmente agrupado asumimos que todos los tanques tienen la misma probabilidad de supervivencia. No hay diferencias entre tanques, salvo la variación por la densidad inicial \(D_i\).

\[ S_i \sim \textrm{Binomial}(D_i,p_i) \]

\[ \textrm{logit}(p_i) = \alpha \]

\[ \alpha = \textrm{Normal}(0, 1.5) \]

Este modelo ignora la heterogeneidad entre tanques (total pooling) y servirá como línea base para comparar con el modelo jerárquico.

En el enfoque de total pooling, asignamos una única \(\alpha\) a todos los tanques, de modo que el modelo asume idéntica probabilidad de supervivencia para los renacuajos en cada uno de ellos. Es como si tratáramos todos los tanques como réplicas exactas, sin captar ninguna heterogeneidad más allá de la variación provocada por la densidad inicial.

A continuación, mostramos los resultados obtenidos para la estimación de \(\alpha\) en nuestro modelo inicial.

parameter mean sd 2.5% 50% 97.5% n_eff Rhat
alpha 0.84 0.07 0.71 0.84 0.97 1,493.30 1.00
lp__ −685.68 0.73 −687.90 −685.39 −685.17 1,613.41 1.00

Podemos cotejar nuestras predicciones con los datos originales:

Predicciones del modelo 1 (total pooling)

Podemos ver que las predicciones (puntos rojos) siguen la media de supervivencia de los tanques (línea discontinua azul), lo que evidencia un subajuste del modelo. Los datos originales aparecen en gris.

2. Modelo No-Pooling

En este modelo no agrupado (no pooling) asignamos un intercepto \(\alpha_i\) distinto a cada tanque, pero no compartimos información entre ellos. Esto significa que cada tanque tiene su propio parámetro de línea base, y no hay aprendizaje entre ellos.

\[ S_i \sim \textrm{Binomial}(D_i,p_i) \]

\[ \textrm{logit}(p_i) = \alpha_{T[i]} \]

\[ \bar{\alpha} = \textrm{Normal}(0, 1.5)\]

Lo cual se traduce en el siguiente código de Stan:

Podemos ver los resultados de nuestro segundo modelo para la estimación de \(\alpha\).

parameter mean sd 2.5% 50% 97.5% n_eff Rhat
alpha[1] 1.70 0.76 0.33 1.66 3.27 5,672.86 1.00
alpha[2] 2.40 0.87 0.85 2.34 4.30 4,362.63 1.00
alpha[3] 0.76 0.65 −0.44 0.73 2.12 5,786.67 1.00
alpha[4] 2.40 0.90 0.85 2.35 4.30 4,561.43 1.00
alpha[5] 1.71 0.78 0.32 1.67 3.37 5,217.79 1.00
alpha[6] 1.72 0.78 0.32 1.67 3.35 5,743.70 1.00
alpha[7] 2.39 0.90 0.78 2.33 4.27 5,308.81 1.00
alpha[8] 1.71 0.77 0.31 1.68 3.34 4,931.96 1.00
alpha[9] −0.37 0.61 −1.61 −0.36 0.79 5,680.00 1.00
alpha[10] 1.73 0.77 0.34 1.66 3.37 4,875.94 1.00
alpha[11] 0.74 0.62 −0.43 0.71 2.03 5,141.80 1.00
alpha[12] 0.37 0.62 −0.82 0.36 1.57 5,072.31 1.00
alpha[13] 0.74 0.64 −0.45 0.70 2.06 5,973.21 1.00
alpha[14] −0.01 0.61 −1.19 0.00 1.17 6,175.52 1.00
alpha[15] 1.73 0.76 0.40 1.69 3.39 4,991.31 1.00
alpha[16] 1.71 0.74 0.44 1.66 3.28 4,472.53 1.00
alpha[17] 2.55 0.68 1.32 2.50 3.99 5,319.64 1.00
alpha[18] 2.14 0.61 1.06 2.11 3.44 5,216.79 1.00
alpha[19] 1.80 0.55 0.78 1.77 2.90 6,347.38 1.00
alpha[20] 3.09 0.81 1.70 3.03 4.88 4,339.08 1.00
alpha[21] 2.15 0.62 1.06 2.10 3.47 4,873.56 1.00
alpha[22] 2.14 0.61 1.03 2.10 3.41 5,592.48 1.00
alpha[23] 2.15 0.61 1.05 2.12 3.45 4,931.70 1.00
alpha[24] 1.55 0.50 0.63 1.52 2.58 5,187.68 1.00
alpha[25] −1.10 0.46 −2.04 −1.08 −0.25 6,605.79 1.00
alpha[26] 0.08 0.38 −0.68 0.07 0.85 5,845.49 1.00
alpha[27] −1.54 0.51 −2.59 −1.52 −0.63 5,803.85 1.00
alpha[28] −0.56 0.43 −1.40 −0.55 0.27 6,377.10 1.00
alpha[29] 0.07 0.41 −0.76 0.08 0.88 5,545.26 1.00
alpha[30] 1.31 0.47 0.45 1.30 2.28 6,434.22 1.00
alpha[31] −0.73 0.42 −1.59 −0.71 0.06 6,125.19 1.00
alpha[32] −0.39 0.40 −1.17 −0.38 0.40 6,381.29 1.00
alpha[33] 2.84 0.66 1.68 2.81 4.24 5,133.69 1.00
alpha[34] 2.47 0.59 1.41 2.42 3.74 5,270.26 1.00
alpha[35] 2.47 0.60 1.43 2.44 3.76 4,652.51 1.00
alpha[36] 1.90 0.48 1.01 1.89 2.94 5,984.88 1.00
alpha[37] 1.90 0.48 1.04 1.87 2.87 5,022.08 1.00
alpha[38] 3.35 0.77 2.00 3.28 5.02 4,188.84 1.00
alpha[39] 2.45 0.56 1.45 2.41 3.66 6,102.30 1.00
alpha[40] 2.16 0.52 1.23 2.14 3.28 5,482.68 1.00
alpha[41] −1.89 0.48 −2.90 −1.87 −1.01 4,903.33 1.00
alpha[42] −0.64 0.35 −1.35 −0.63 0.03 5,973.63 1.00
alpha[43] −0.51 0.34 −1.18 −0.51 0.13 5,068.76 1.00
alpha[44] −0.39 0.33 −1.03 −0.39 0.23 6,359.89 1.00
alpha[45] 0.51 0.35 −0.13 0.51 1.22 5,790.86 1.00
alpha[46] −0.64 0.36 −1.36 −0.63 0.05 6,213.80 1.00
alpha[47] 1.91 0.47 1.07 1.89 2.89 4,860.88 1.00
alpha[48] −0.06 0.34 −0.74 −0.06 0.60 4,886.41 1.00
lp__ −524.67 5.16 −536.21 −524.21 −515.87 1,518.35 1.00

Predicciones del modelo 2 (no pooling)

Al evaluar las estimaciones del modelo No- pooling (un intercepto \(\alpha_i\) independiente por tanque) obtenemos:

  1. Gran variabilidad entre tanques
    • Los \(\alpha_i\) (en escala log-odds) oscilan aproximadamente entre \(-1.9\) y \(+3.4\).
    • Transformados a probabilidad, algunos tanques se estiman con supervivencias cercanas al 10–20% y otros al 90–95%.
  2. Incertidumbre muy desigual
    • Tanques con pocas observaciones (densidad pequeña) presentan desviaciones estándar de \(\alpha_i\) de 0.6–0.8 y rangos de credibilidad muy amplios (p. ej. \(\alpha_3: [–0.41, +2.06]\).
    • Tanques con más renacuajos reducen su incertidumbre a 0.3–0.5 en la desviación estándar de \(\alpha_i\).
  3. Sobreajuste
    • Las predicciones del modelo (puntos rojos) siguen casi exactamente los datos observados (puntos grises), incluso en valores extremos.
    • No existe “arrastre” hacia un promedio general: cada tanque se ajusta únicamente con su propia información.
  4. Problemas en tanques pequeños
    • Con muestras muy pequeñas, pocas muertes o supervivencias cambian drásticamente la estimación de \(\alpha_i\).
    • El ancho de los intervalos de credibilidad hace poco útiles esas predicciones para la toma de decisiones.

Por lo anterior, el modelo No-pooling captura fielmente cada dato empírico, pero padece de sobreajuste y de alta incertidumbre en tanques con pocas observaciones. Para obtener estimaciones más estables y evitar extremos sin fundamento, es recomendable utilizar un modelo jerárquico (partial pooling) que comparta información entre tanques.

3. Modelo Partial Pooling

En este tercer modelo parcialmente agrupado (partial pooling) asignamos un intercepto distinto a cada tanque, pero también estimamos la variabilidad entre ellos. Esto nos permite captar la heterogeneidad entre tanques y, al mismo tiempo, compartir información entre ellos. Para esto se agregan dos parámetros: \(\mu\) y \(\sigma\), los cuáles llamaremos hiperparámetros desde este punto. En el modelo anterior, todas las \(\alpha_i\) se distribuían Normal con una media y desviación estándar establecida o fija. Con esta modificación, los \(\alpha_i\) comparten una misma distribución, lo que le permite transmitir información entre tanques al modelo.

\[ S_i \sim \textrm{Binomial}(D_i,p_i) \]

\[ \textrm{logit}(p_i) = \alpha_{T[i]} \]

\[ \bar{\alpha} = \textrm{Normal}(0, 1.5)\]

\[ \sigma_\alpha = \textrm{Exponential}(1) \]

\[ \alpha_j = \textrm{Normal}(\bar{\alpha}, \sigma_\alpha) \]

Lo cual se traduce en el siguiente código de Stan:

parameter mean sd 2.5% 50% 97.5% n_eff Rhat
alpha_tank[1] 2.13 0.85 0.65 2.08 3.98 4,887.86 1.00
alpha_tank[2] 3.06 1.09 1.22 2.96 5.53 3,526.73 1.00
alpha_tank[3] 1.01 0.68 −0.25 0.98 2.42 4,849.82 1.00
alpha_tank[4] 3.02 1.12 1.13 2.92 5.57 4,157.27 1.00
alpha_tank[5] 2.13 0.87 0.65 2.08 4.07 5,399.82 1.00
alpha_tank[6] 2.13 0.87 0.64 2.08 4.03 4,301.06 1.00
alpha_tank[7] 3.05 1.12 1.18 2.93 5.58 3,881.67 1.00
alpha_tank[8] 2.12 0.86 0.62 2.05 4.02 4,750.99 1.00
alpha_tank[9] −0.16 0.60 −1.34 −0.15 1.00 5,406.37 1.00
alpha_tank[10] 2.15 0.91 0.56 2.08 4.12 3,743.81 1.00
alpha_tank[11] 1.01 0.66 −0.24 0.97 2.36 6,072.68 1.00
alpha_tank[12] 0.57 0.62 −0.60 0.55 1.81 5,467.33 1.00
alpha_tank[13] 1.01 0.67 −0.21 0.98 2.39 4,978.02 1.00
alpha_tank[14] 0.21 0.62 −1.00 0.20 1.49 5,212.26 1.00
alpha_tank[15] 2.15 0.88 0.62 2.10 4.03 4,131.40 1.00
alpha_tank[16] 2.10 0.84 0.64 2.04 3.98 3,855.01 1.00
alpha_tank[17] 2.89 0.78 1.57 2.83 4.55 5,022.11 1.00
alpha_tank[18] 2.38 0.65 1.23 2.34 3.76 4,059.83 1.00
alpha_tank[19] 2.01 0.59 0.96 1.96 3.24 4,761.69 1.00
alpha_tank[20] 3.65 1.00 2.00 3.55 5.88 3,666.71 1.00
alpha_tank[21] 2.39 0.69 1.21 2.34 3.89 4,784.65 1.00
alpha_tank[22] 2.40 0.66 1.25 2.35 3.79 3,745.60 1.00
alpha_tank[23] 2.40 0.67 1.23 2.34 3.83 4,530.84 1.00
alpha_tank[24] 1.69 0.54 0.70 1.67 2.82 6,346.68 1.00
alpha_tank[25] −1.00 0.44 −1.93 −0.99 −0.17 5,481.20 1.00
alpha_tank[26] 0.16 0.39 −0.62 0.16 0.92 5,088.24 1.00
alpha_tank[27] −1.43 0.48 −2.41 −1.42 −0.56 4,496.63 1.00
alpha_tank[28] −0.47 0.40 −1.30 −0.47 0.31 6,474.81 1.00
alpha_tank[29] 0.17 0.40 −0.62 0.16 0.98 5,634.26 1.00
alpha_tank[30] 1.44 0.49 0.54 1.42 2.45 5,480.81 1.00
alpha_tank[31] −0.63 0.41 −1.48 −0.63 0.15 5,608.36 1.00
alpha_tank[32] −0.30 0.40 −1.09 −0.30 0.49 6,075.92 1.00
alpha_tank[33] 3.18 0.75 1.87 3.12 4.78 4,042.93 1.00
alpha_tank[34] 2.70 0.64 1.59 2.65 4.14 4,428.12 1.00
alpha_tank[35] 2.72 0.64 1.61 2.68 4.06 3,846.45 1.00
alpha_tank[36] 2.07 0.53 1.14 2.04 3.17 3,999.56 1.00
alpha_tank[37] 2.06 0.51 1.16 2.04 3.13 5,314.93 1.00
alpha_tank[38] 3.88 0.94 2.33 3.78 6.02 3,770.21 1.00
alpha_tank[39] 2.70 0.64 1.58 2.65 4.12 3,710.57 1.00
alpha_tank[40] 2.35 0.58 1.32 2.31 3.62 4,195.31 1.00
alpha_tank[41] −1.81 0.47 −2.80 −1.80 −0.93 6,046.91 1.00
alpha_tank[42] −0.57 0.34 −1.26 −0.57 0.11 5,270.29 1.00
alpha_tank[43] −0.44 0.34 −1.14 −0.43 0.22 5,404.22 1.00
alpha_tank[44] −0.34 0.34 −1.01 −0.34 0.34 5,269.70 1.00
alpha_tank[45] 0.57 0.35 −0.09 0.56 1.29 5,212.80 1.00
alpha_tank[46] −0.57 0.35 −1.26 −0.56 0.07 5,333.60 1.00
alpha_tank[47] 2.06 0.51 1.14 2.03 3.12 4,879.56 1.00
alpha_tank[48] 0.01 0.33 −0.65 0.00 0.68 4,790.15 1.00
lp__ −532.70 5.50 −544.77 −532.46 −523.06 1,289.42 1.00

Y para los hiperparámetros

parameter mean sd 2.5% 50% 97.5% n_eff Rhat
mu_alpha 1.34 0.25 0.88 1.34 1.83 3,449.35 1.00
sigma_alpha 1.61 0.21 1.25 1.59 2.07 2,390.55 1.00

Podemos nuevamente, ver cómo se comportan nuestras predicciones contra los valores observados:

Predicciones del modelo 3 (partial pooling)
  1. Regularización adaptativa (“shrinkage”)
    • Las estimaciones por tanque (\(\alpha_j\)) se encogen hacia la media global:
      • Más encogimiento en tanques pequeños (poca información).
      • Menos encogimiento en tanques grandes (más datos).
  2. Equilibrio under-/over-fitting
    • El modelo aprende el grado óptimo de pooling desde los datos.
    • Corrige el subajuste del complete-pooling y el sobreajuste del no-pooling.
  3. Precisión y convergencia
    • Intervalos más estrechos que en el modelo no-pooling, pero más amplios que en el total-pooling.
    • Todos los \(\hat R\approx1\) y n_eff elevados garantizan buena convergencia de la cadena.
  4. Implicaciones ecológicas
    • Capta diferencias reales entre tanques (densidad, depredadores), sin ignorar heterogeneidad.
    • Cada tanque “aprende” de los demás, mitigando el sesgo de muestras pequeñas.

El modelo parcialmente agrupado ofrece el mejor compromiso: reduce el ruido de tanques con pocos datos y a la vez preserva las verdaderas diferencias entre ellos, obteniendo estimaciones más robustas y ecológicamente interpretables.

Relación entre log-odds y probabilidad

Para comprender mejor el efecto del parámetro \(\alpha\) en los modelos logísticos, se muestra a continuación la transformación inv_logit($\alpha$):

Esto ilustra cómo pequeñas diferencias en log-odds (\(\alpha\)) se traducen en cambios más o menos pronunciados en la probabilidad, dependiendo de la región de la curva sigmoide.

Comparativos

Podemos graficar las estimaciones del modelo No-pooling y el Parcial pooling para ver el comportamiento con mayor detenimiento.

Incluyendo intervalos de credibilidad para ver su comportamiento:

Ahora que tenemos los tres modelos ajustados, es momento de compararlos. Para ello, utilizaremos: - Diagnósticos MCMC: Para confirmar la buena convergencia de los modelos.
- Criterios de información: WAIC y LOO para comparar modelos en términos de ajuste y complejidad.
- Visualización de predicciones: Para contrastar la calidad de las predicciones por tanque.

Diagnósticos MCMC

Una buena práctica es comparar las trazas y distribuciones posteriores de parámetros clave para verificar convergencia y comportamiento estable.

Estos gráficos nos permiten confirmar que las cadenas exploran bien el espacio posterior, sin signos de problemas como falta de mezcla o divergencias.

Predicciones por tanque

Unificamos en una sola gráfica las predicciones de los tres modelos para compararlas directamente.

Este gráfico muestra cómo cada modelo aproxima los datos observados. Se puede observar el Modelo Parcial Pooling logra un buen balance, sin subestimar ni sobreajustar.

Modelo con información completa

En los tres modelos anteriores, no incorporamos todas las variables, y como lo que deseamos es estudiar el fenómeno, incluiyendo todas las variables, es decir, agregando la variable depredador \(P\) y la variable tamaño \(G\), dado nuestro DAG, puede mejorar la estimación de los efectos por variable. Podemos extender entonces la idea del Modelo Jerárquico e incorporar estas variables. De tal modo que:

\[ S_i \sim \textrm{Binomial}(D_i, p_i) \]

\[ \textrm{logit}(p_i) = \alpha_{\textrm{Tanque}[i]} + \beta_p *\textrm{pred} + \beta_s *\textrm{size}\]

\[ \alpha_j \sim \textrm{Normal}(\mu, \sigma) \]

\[ \mu \sim \textrm{Normal}(0, 1.5) \]

\[ \sigma \sim \textrm{Exponential}(1) \]

\[ \beta_p \sim \textrm{Normal}(-0.5,1) \]

\[ \beta_s \sim \textrm{Normal}(0,1) \]

parameter mean sd 2.5% 50% 97.5% n_eff Rhat
alpha_tank[1] 2.73 0.68 1.47 2.70 4.09 2,082.79 1.00
alpha_tank[2] 3.16 0.73 1.79 3.13 4.67 2,513.15 1.00
alpha_tank[3] 1.98 0.65 0.71 2.00 3.24 1,906.10 1.00
alpha_tank[4] 3.16 0.74 1.79 3.14 4.71 2,481.91 1.00
alpha_tank[5] 2.58 0.69 1.28 2.57 3.99 3,379.08 1.00
alpha_tank[6] 2.58 0.67 1.31 2.56 3.95 2,822.15 1.00
alpha_tank[7] 3.06 0.73 1.68 3.04 4.57 2,714.34 1.00
alpha_tank[8] 2.59 0.69 1.29 2.57 4.04 2,884.23 1.00
alpha_tank[9] 2.50 0.62 1.26 2.50 3.73 999.01 1.00
alpha_tank[10] 3.78 0.64 2.57 3.76 5.12 1,097.18 1.00
alpha_tank[11] 3.24 0.63 2.07 3.21 4.51 1,033.96 1.00
alpha_tank[12] 2.98 0.62 1.77 2.97 4.21 996.09 1.00
alpha_tank[13] 3.04 0.59 1.89 3.03 4.21 1,447.68 1.00
alpha_tank[14] 2.53 0.57 1.40 2.53 3.65 1,218.17 1.00
alpha_tank[15] 3.58 0.63 2.41 3.56 4.92 1,469.34 1.00
alpha_tank[16] 3.59 0.65 2.41 3.56 4.96 1,524.42 1.00
alpha_tank[17] 3.14 0.63 1.98 3.13 4.44 2,030.73 1.00
alpha_tank[18] 2.83 0.58 1.76 2.81 4.05 2,107.70 1.00
alpha_tank[19] 2.55 0.57 1.46 2.54 3.74 2,260.41 1.00
alpha_tank[20] 3.51 0.70 2.26 3.47 5.04 2,344.73 1.00
alpha_tank[21] 2.63 0.58 1.59 2.61 3.84 4,347.44 1.00
alpha_tank[22] 2.63 0.57 1.57 2.61 3.82 3,430.79 1.00
alpha_tank[23] 2.64 0.59 1.56 2.61 3.85 3,413.86 1.00
alpha_tank[24] 2.09 0.50 1.13 2.08 3.10 3,847.94 1.00
alpha_tank[25] 1.88 0.55 0.75 1.89 2.91 685.46 1.01
alpha_tank[26] 2.83 0.53 1.79 2.83 3.87 648.64 1.01
alpha_tank[27] 1.54 0.59 0.34 1.55 2.69 782.06 1.01
alpha_tank[28] 2.31 0.54 1.27 2.31 3.35 679.01 1.01
alpha_tank[29] 2.53 0.46 1.63 2.53 3.46 872.85 1.00
alpha_tank[30] 3.51 0.50 2.56 3.51 4.52 1,175.39 1.00
alpha_tank[31] 1.87 0.49 0.90 1.87 2.81 1,015.70 1.00
alpha_tank[32] 2.13 0.47 1.20 2.14 3.05 1,091.76 1.00
alpha_tank[33] 3.35 0.62 2.17 3.32 4.65 1,968.77 1.00
alpha_tank[34] 3.03 0.56 1.98 3.01 4.16 2,190.90 1.00
alpha_tank[35] 3.05 0.57 1.96 3.04 4.22 1,864.63 1.00
alpha_tank[36] 2.57 0.53 1.54 2.57 3.65 2,100.42 1.00
alpha_tank[37] 2.33 0.50 1.41 2.31 3.34 3,688.63 1.00
alpha_tank[38] 3.49 0.66 2.30 3.44 4.94 2,917.55 1.00
alpha_tank[39] 2.82 0.53 1.86 2.79 3.94 4,067.20 1.00
alpha_tank[40] 2.55 0.50 1.62 2.54 3.59 3,335.71 1.00
alpha_tank[41] 1.23 0.59 0.05 1.25 2.30 681.69 1.01
alpha_tank[42] 2.22 0.52 1.19 2.22 3.24 565.31 1.01
alpha_tank[43] 2.32 0.51 1.31 2.32 3.31 571.45 1.01
alpha_tank[44] 2.42 0.51 1.42 2.42 3.41 590.11 1.01
alpha_tank[45] 2.89 0.43 2.05 2.90 3.74 896.29 1.00
alpha_tank[46] 1.89 0.44 1.03 1.90 2.74 818.24 1.00
alpha_tank[47] 3.99 0.49 3.09 3.97 5.03 1,091.83 1.00
alpha_tank[48] 2.39 0.42 1.56 2.40 3.23 837.65 1.00
lp__ −501.54 6.76 −516.02 −501.18 −489.46 841.68 1.00
parameter mean sd 2.5% 50% 97.5% n_eff Rhat
mu_alpha 2.69 0.28 2.15 2.69 3.26 412.22 1.01
sigma_alpha 0.80 0.15 0.55 0.78 1.12 1,346.24 1.00
bp −2.40 0.31 −2.99 −2.40 −1.80 470.28 1.01
bs −0.39 0.29 −0.95 −0.40 0.20 966.94 1.00

Y podemos ver el comparativo entre las predicciones y los datos reales:

Y podemos repetir igualmente el ejercicio anterior para comparar entre modelos:

Conclusiones

En este proyecto empleamos modelos bayesianos jerárquicos para analizar los datos del experimento de Vonesh & Bolker sobre la supervivencia de renacuajos bajo condiciones de densidad y depredación. A partir de un enfoque comparativo, contrastamos tres estrategias de modelación: total pooling, no pooling y partial pooling, evaluando sus implicaciones estadísticas, computacionales y ecológicas.

Nuestros principales hallazgos son los siguientes: - Modelos simples no capturan la estructura jerárquica El modelo completamente agrupado (total pooling) subestima la variabilidad entre tanques, imponiendo una única probabilidad de supervivencia para todos los casos. Esto genera subajuste (underfitting) y oculta diferencias importantes causadas por factores no observados, como la heterogeneidad ambiental o genética entre tanques.

  • Modelos completamente separados sobreajustan El modelo no agrupado (no pooling) permite que cada tanque tenga su propio parámetro, pero sin compartir información. Esto genera sobreajuste (overfitting), especialmente en tanques con pocas observaciones, donde pequeñas fluctuaciones pueden producir estimaciones extremas e inestables./

  • El modelo jerárquico logra el mejor equilibrio El modelo parcialmente agrupado (partial pooling) utiliza interceptos específicos para cada tanque, pero los hace depender de una distribución común que aprende de los datos. Esto permite:/

  • Capturar la heterogeneidad real entre tanques. -Reducir la incertidumbre en tanques pequeños mediante shrinkage adaptativo. / -Mejorar la predicción y generalización al evitar extremos no sustentados por evidencia. /

Las visualizaciones y la comparación de errores absolutos en la simulación demuestran que el pooling parcial ofrece el mejor compromiso entre fidelidad a los datos y estabilidad inferencial.

Además del ajuste superior, los modelos jerárquicos bayesianos permiten: Incorporar conocimiento previo en forma de priors interpretables. Evaluar incertidumbre completa mediante intervalos creíbles.

Los modelos jerárquicos bayesianos no solo mejoran la precisión de nuestras estimaciones, sino que también promueven una filosofía de inferencia más cautelosa y adaptativa, al reconocer explícitamente la estructura de los datos y la incertidumbre inherente a los fenómenos naturales.

Este proyecto ha demostrado que la regularización jerárquica no es solo una herramienta estadística poderosa, sino también un lente conceptual para pensar con mayor profundidad en los patrones, procesos y limitaciones de nuestros sistemas de observación.